FILTER MODE ACTIVE

#сжатие моделей

Найдено записей: 4

#сжатие моделей16.11.2025

Cerebras уменьшила MiniMax-M2 до 162B с помощью REAP, сохранив 10B активных параметров для долгих контекстов и кодирования агентов

Cerebras представила MiniMax-M2-REAP-162B-A10B — 30% REAP-прюнинг экспертов уменьшает память без заметной потери качества на задачах кода, рассуждений и вызова инструментов.

#сжатие моделей28.05.2025

Оптимизация AI-инференса: передовые методы для повышения эффективности и снижения затрат

Узнайте, как оптимизация AI-инференса повышает производительность, снижает затраты, улучшает безопасность и повышает удовлетворённость пользователей в реальных приложениях.

#сжатие моделей11.05.2025

Введение Effective State-Size (ESS): Новый Метрик для Измерения Использования Памяти в Последовательных Моделях

Исследователи представили Effective State-Size (ESS) — новую метрику для измерения реального использования памяти в последовательных моделях, что улучшает оценку и оптимизацию их работы.

#сжатие моделей22.04.2025

Исследователи UNC представили TACQ: сохранение точности LLM при 2-битном квантовании с учётом задач

Исследователи из UNC Chapel Hill представили TACQ — метод квантования, который сохраняет критически важные весовые цепи и позволяет большим языковым моделям сохранять высокую точность даже при 2-битном сжатии.